# Arquitectura e Ingeniería de Computadores - 3<sup>er</sup> Curso. Examen 1er parcial 25/10/2019 Responde cada pregunta en una hoja distinta. Tiempo disponible: 2h30m

- 1. (2,5 **puntos**) Se dispone de una aplicación que realiza el proceso de inferencia de una red neuronal entrenada para clasificar tipos de defectos de fabricación de piezas industriales para el sector agrícola. Dicha aplicación, una vez caracterizada, realiza las siguientes operaciones por cada pieza analizada:
  - Multiplicación de matrices: 80 % del tiempo de ejecución.
  - Acceso a disco: 15 % del tiempo de ejecución.
  - Resto de operaciones: 5 % del tiempo de ejecución.

Se desea utilizar la aplicación en un contexto industrial donde el tiempo máximo de ejecución de la aplicación debe ser de 1 segundo, tiempo que corresponde al proceso de fabricación de una pieza.

El sistema actual donde se ejecuta la aplicación consta de un computador con un procesador y un disco duro con tiempo medio de acceso de 10ms. El computador tiene un coste de 1000 euros.

Con este computador la aplicación no cumple la limitación del tiempo de ejecución ya que utiliza 1,2 segundos para analizar una pieza. Por este motivo, se plantea uno de los siguientes tres cambios en la configuración del computador:

- Añadir una GPU de gama alta para el cálculo de matrices. La GPU permite mejorar el cálculo de multiplicación de matrices en un factor 2.5 comparado con la CPU. El coste de la GPU es de 500€.
- Añadir un disco de gama alta con tiempo de acceso medio de 2ms. El coste del disco de gama alta es de 250€.
- Añadir una GPU de gama media con factor de mejora en multiplicaciones de 1.2 y disco duro de gama media con tiempo de acceso medio de 5ms. El coste de la solución (GPU + disco) es de 400€.

#### Calcular:

- a) La aceleración global que se producirá si se opta por cada una de las tres mejoras en el computador por separado.
- b) El tiempo de ejecución de la aplicación en el computador una vez incorporadas cada una de las mejoras por separado.
- c) Indicar qué opción es mejor desde el punto de vista combinado de coste y prestaciones y que cumple con el tiempo máximo de ejecución de 1 segundo.
- 2. (2,5 puntos) Sea un procesador MIPS segmentado en cinco etapas utilizado en un sistema empotrado. El procesador no incorpora cortocircuitos e inserta ciclos de parada para resolver todos los posibles conflictos, tanto de datos, como de control. El procesador tiene una frecuencia de reloj de 125 MHz. El procesador se ha evaluado con una aplicación típica, obteniendo un tiempo de ejecución de 12 ms. La aplicación contiene 1.2 millones de instrucciones.

#### Calcular:

- a) CPI del procesador al ejecutar la aplicación.
- b) El nuevo tiempo de ejecución si el procesador fuera capaz de eliminar todos los ciclos de parada.
- c) Aceleración obtenida si sustituimos el procesador inicial por otro que no tiene lógica para detectar conflictos de datos ni de control, utilizando un compilador que reorganiza el código, el cual inserta un 20 % más de instrucciones al código inicial de la aplicación para resolver todos los conflictos de datos y de control.
- d) Aceleración respecto al procesador original si se utilizara la técnica *predict-not taken* para resolver los conflictos de control y cortocircuitos para resolver los conflictos de datos. Las instrucciones de carga insertan un ciclo de parada en caso de conflicto de datos con la instrucción siguiente, lo que representa el 2% de todas las instrucciones ejecutadas. El 12% de las instrucciones son de salto condicional, donde el 60% son efectivos. El PC se actualiza en la 2ª etapa de segmentación.

3. (3 **puntos**) El siguiente diagrama instrucciones–tiempo corresponde a la ejecución de cierto programa P sobre un procesador MIPS64 segmentado:

| PC     | Instruccion        | 1  | 2  | 3  | 4  | 5  | 6  | 7  | 8  | 9  | 10 | 11            | 12 | 13 | 14 | 15 | 16 |
|--------|--------------------|----|----|----|----|----|----|----|----|----|----|---------------|----|----|----|----|----|
| loop   | 1.s f0,0(r10)      | IF | ID | ΕX | ME | WB |    |    |    |    |    |               |    |    |    |    |    |
| 20     | l.s f1,4(r10)      |    | IF | ID | ΕX | ME | WB |    |    |    |    |               |    |    |    |    |    |
| 24     | add.s f0,f0,f10    |    |    | IF | ID | A1 | A2 | АЗ | WB |    |    |               |    |    |    |    |    |
| 28     | add.s f1,f1,f10    |    |    |    | IF | ID | A1 | A2 | A3 | WB |    |               |    |    |    |    |    |
| 32     | s.s f0,0(r11)      |    |    |    |    | IF | ID | ΕX | ME |    |    |               |    |    |    |    |    |
| 36     | s.s f1,4(r11)      |    |    |    |    |    | IF | ID | ΕX | ME |    |               |    |    |    |    |    |
| 40     | dadd r10, r10, #8  |    |    |    |    |    |    | IF | ID | ΕX | ME | $\mathtt{WB}$ |    |    |    |    |    |
| 44     | dadd r11, r11, #8  |    |    |    |    |    |    |    | IF | ID | ΕX | ME            | WB |    |    |    |    |
| 48     | bne r10, r20, loop |    |    |    |    |    |    |    |    | IF | ID | ΕX            | ME | WB |    |    |    |
| 52     | sigte              |    |    |    |    |    |    |    |    |    | IF | ID            | _  |    |    |    |    |
| .etext | sigte              |    |    |    |    |    |    |    |    |    |    | IF            | _  |    |    |    |    |
| loop   | 1.s f0,0(r10)      |    |    |    |    |    |    |    |    |    |    |               | IF | ID | ΕX | ME | WB |

### Se pide:

- a) Identifica una dependencia de datos, una antidependencia, una dependencia de salida y una dependencia de control en el código anterior.
- b) Calcula los CPI obtenidos y el tiempo de ejecución del programa en función del número de iteraciones n.
- c) Indica los cortocircuitos que se han aplicado para resolver los riesgos de datos. Utiliza la notación: "Ciclo Z. cortocircuito de X-a-Y" donde X e Y representan etapas de segmentación del procesador.
- d) Indica qué técnica se ha empleado para resolver los riesgos de control. Justifica la respuesta.

Para mejorar las prestaciones, se indica al compilador que utilice instrucciones SIMD que permiten operar simultáneamente sobre las dos porciones de 32 bits de cada registro de coma flotante de 64 bits. Estas instrucciones tienen el sufijo ".ps" y el código queda como sigue:

```
loop: 1.ps f0,0(r10)
    add.ps f0,f0,f10
    s.ps f0,0(r11)
    dadd r10,r10,#8
    dadd r11,r11,#8
    bne r10,r20,loop
```

- e) Dibuja el diagrama instrucciones-tiempo resultante de su ejecución.
- f) Calcula los CPI obtenidos y el tiempo de ejecución del programa en función del número de iteraciones n.

- 4. (2 **puntos**) Durante la ejecución de una aplicación en un procesador con un predictor dinámico de saltos del tipo BTB con 1 bit para la predicción se obtienen las siguientes estadísticas:
  - a) Los saltos son efectivos en un 70,00% de los casos.
  - b) Los saltos se encuentran en la tabla del predictor en un 90,00% de los casos.
  - c) El predictor acierta la predicción en un  $85,00\,\%$  de los saltos que se encuentran en la tabla.

El procesador está segmentado en 7 etapas y la escritura del PC por parte de las instrucciones de salto se realiza en la quinta etapa. El predictor BTB ofrece la predicción al final de la primera etapa.

Se solicita, justificando las respuestas, lo siguiente:

- a) Rellenar la tabla adjunta (ver hoja de respuestas) indicando para cada posible transición de la máquina de estados del predictor, la condición de salto, si se produce o no penalización en el salto y la frecuencia con que dicha transición se produce. Supóngase que la probabilidad de acertar o fallar es independiente del estado actual del predictor.
- b) Mostrar en la tabla adjunta (ver hoja de respuestas) el comportamiento de la BTB cuando predice que **salta** y finalmente el salto **no salta**, indicando qué instrucciones son las que se ejecutan en los ciclos siguientes al salto. Indicar además la penalización que sufre la instrucción de salto en este caso.
  - Las etapas de cada instrucción se mostrarán como E1, E2, E3, ... Las instrucciones canceladas se representarán con una X en el ciclo correspondiente. Las instrucciones siguientes al salto se representarán como pc+1, pc+2, ... y las instrucciones de destino del salto como dest, dest+1, etc.
- c) Si en ausencia de fallos las instrucciones de salto tienen un CPI de 1, indicar el CPI real de las instrucciones de salto dadas las estadisticas obtenidas.
- d) Se pretende sustituir el predictor actual por un predictor de dos niveles que utilice 1 bit para la predicción y 1 bit de historia global, es decir, un predictor del tipo (1: global, 1: local). La siguiente tabla muestra las estadísticas obtenidas con dicho predictor. Teniendo en cuenta que la probabilidad de que el salto previo sea efectivo se mantiene en un 70,00 %, ¿sería interesante la sustitución? ¿Cuál sería el nuevo CPI de las instrucciones de salto?

|                           |               |          | Frecuencia (%) |         |  |  |
|---------------------------|---------------|----------|----------------|---------|--|--|
| Estado                    |               | Estado   | Último salto   |         |  |  |
| Origen                    |               | Destino  | No salta       | Salta   |  |  |
| Ø                         | $\rightarrow$ | No Salta | 3.00 %         |         |  |  |
| $\emptyset$ $\rightarrow$ |               | Salta    | 7.00 %         |         |  |  |
| No Salta                  | $\rightarrow$ | No Salta | 21.60 %        | 24.30 % |  |  |
| No Salta                  | $\rightarrow$ | Salta    | 12.60 %        | 6.30 %  |  |  |
| Salta                     | $\rightarrow$ | No Salta | 5.40 %         | 2.70 %  |  |  |
| Salta                     | $\rightarrow$ | Salta    | 50.40 %        | 56.70 % |  |  |

 $\emptyset \to \text{Indica que la instrucción de salto no está en la tabla.}$ 

|--|

# Ejercicio 3

e) Dibuja el diagrama instrucciones-tiempo del código con instrucciones SIMD.



| <b>Apellidos y Nombre:</b> |  |
|----------------------------|--|

## Ejercicio 4

a) Indicar la condición de salto, si se produce o no penalización y la frecuencia con que cada transición se produce.

| Estado   |               | Estado   | Cond.    | ¿Penaliz.?  |                |
|----------|---------------|----------|----------|-------------|----------------|
| Origen   |               | Destino  | (S / NS) | (S)í / (N)o | Frecuencia (%) |
| Ø        | $\rightarrow$ | No Salta |          |             |                |
| Ø        | $\rightarrow$ | Salta    |          |             |                |
| No Salta | $\rightarrow$ | No Salta |          |             |                |
| No Salta | $\rightarrow$ | Salta    |          |             |                |
| Salta    | $\rightarrow$ | No Salta |          |             |                |
| Salta    | $\rightarrow$ | Salta    |          |             |                |

b) Mostrar el comportamiento de la BTB cuando predice que **salta** y finalmente el salto **no salta**. Indicad tantas instrucciones como quepan en la tabla.

| SALTO | E1 | E2 | E3 | E4 | E5 | E6 | E7 |
|-------|----|----|----|----|----|----|----|
|       |    |    |    |    |    |    |    |
|       |    |    |    |    |    |    |    |
|       |    |    |    |    |    |    |    |
|       |    |    |    |    |    |    |    |
|       |    |    |    |    |    |    |    |
|       |    |    |    |    |    |    |    |

c) Indicar el CPI real de las instrucciones de salto.

d) Indicar el CPI de las instrucciones de salto utilizando el predictor de dos niveles (1: global, 1: local).